ADH
Arenadata Hadoop

Продукт
Название базовой системы (платформы): Apache Hadoop
Разработчики: Arenadata (Аренадата Софтвер)
Дата последнего релиза: 2024/12/09
Технологии: СУБД

Содержание

Основная статья: Система управления базами данных (СУБД)

Arenadata Hadoop (ADH) — это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.

  • Поисковые и контекстные механизмы поиска высоконагруженных веб-сайтов и интернет-магазинов
  • Хранение, сортировка и обработка огромных объемов неструктурированных данных

2024

Arenadata Hadoop 3.3.6.1 с Smart Storage Manager (SSM)

Arenadata выпустила обновленную версию Arenadata Hadoop (ADH) — корпоративного дистрибутива для хранения, обработки и анализа неограниченного объёма неструктурированных и слабоструктурированных данных. Релиз 3.3.6.1 включает масштабное обновление версий компонентов, доработки в части информационной безопасности и поддержку дополнительной операционной системы. Об этом компания сообщила 9 декабря 2024 года.

В релиз вошла последняя версия Smart Storage Manager (SSM) — инструмента для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др. Версия SSM 2.0.0-alpha получила полностью переработанный пользовательский интерфейс и ряд улучшений, включая оптимизированную стратегию подсчёта доступов и удаление зависимости от Zeppelin — в общей сложности более 100 доработок начиная с первого релиза SSM в марте 2024. TAdviser выпустил новую Карту «Цифровизация ритейла»: 280 разработчиков и поставщиков услуг 14.8 т

Помимо этого, в продукте обновлены версии основных сервисов, включая компоненты Hadoop (HDFS, YARN), вычислительные движки Hive, Impala, Spark и Flink, распределённый многопользовательский SQL-шлюз Kyuubi, а также Iceberg — библиотеку поддержки открытого табличного формата данных. В дополнение к обновленной версии в сервисах реализованы багфиксы и улучшения, направленные на повышение производительности и стабильности. В поставку с дистрибутивом добавлен ряд расширения для сервиса Flink, предназначенных для интеграции с Kafka, Hive и Iceberg-таблицами.

В контексте информационной безопасности в Arenadata Hadoop появилась функция шифрования конфиденциальных данных в конфигурационных файлах сервисов HDFS, YARN, Hive, HBase, Spark, Impala, Zeppelin, Kyuubi и Solr. Шифрование реализовано с помощью провайдера Hadoop или KMS и выполняется посредством кластерного действия — Manage Credential Encryption. Кроме того, релиз включает возможность активации протокола SSL/TLS для межкомпонентной коммуникации внутри сервиса Flink и поддержку SPNEGO-аутентификации для Hue, предоставляющую удалённый защищённый доступ к веб-интерфейсу.

В обновленной версии подсистемы безопасности Arenadata Platform Security 1.2.0 обновлены сервисы Knox и Ranger, добавлен плагин Ranger для SSM и проверка на конфликты портов, которая выполняется перед запуском некоторых действий. Представленная версия Arenadata Hadoop совместима с одной из наиболее популярных open source операционных систем — Ubuntu 22.04.2 LTS. Она введена в качестве альтернативы CentOS/RHEL 7.х, поддержка которых со стороны вендора уже завершена.

Поддержка Hadoop User Experience и ACID-транзакций

Arenadata 28 августа 2024 года представила очередную версию Arenadata Hadoop (ADH) — корпоративного дистрибутива для хранения, обработки и анализа неструктурированных и слабоструктурированных данных. Релиз расширяет возможности управления данными благодаря поддержке ACID-транзакций и веб-интерфейсу HUE для удобного взаимодействия аналитиков с базами и хранилищами данных.

Обновленная версия продукта включает в поставку Apache Iceberg — библиотеку поддержки высокопроизводительного открытого табличного формата данных для управления информацией на уровне файловой системы. Apache Iceberg позволяет работать со структурированной информацией в озере данных, используя SQL-запросы, и легко интегрируется в существующую инфраструктуру благодаря совместимости с большинством технологий хранения данных (от HDFS до S3) и популярными вычислительными инструментами, такими как Spark, Impala, Hive и др.

Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет существенно повысить скорость выполнения запросов за счёт инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.

В представленной версии Arenadata Hadoop реализована поддержка HUE (Hadoop User Experience) — веб-интерфейса экосистемы Hadoop, предназначенного для анализа данных. Он способен подключаться к СУБД, вычислительному инструменту или хранилищу данных через нативные коннекторы и упрощает работу с источниками данных. HUE востребован широким кругом пользователей: от бизнес-аналитиков, дата-инженеров и дата-сайентистов до администраторов баз данных и SQL-разработчиков. В составе Arenadata Hadoop HUE содержит преднастроенные интерпретаторы SQL для Impala, Hive, Kyuubi и Spark SQL, а также мониторинг задач YARN и Impala и возможность просмотра файловой системы HDFS.

«
«На данный момент поддержка Iceberg доступна в сервисах Spark, Impala и ограниченно в Hive (только чтение). В следующем релизе мы расширим функциональность в Hive и добавим поддержку Iceberg-формата в Flink, что увеличит возможности потоковой обработки данных, — отметил Александр Анисимов, технический руководитель продукта Arenadata Hadoop. — В свою очередь, новый сервис HUE получит дополнительный функционал, связанный с безопасностью и отказоустойчивостью, также будет расширяться список преднастроенных интерпретаторов».
»

Релиз Arenadata Hadoop включил и другие изменения: обновлены версии сервисов Impala, Spark, Kyuubi и Zeppelin, добавлена LDAP-аутентификация для Impala и Kyuubi и плагин Kyuubi AuthZ в Spark3 для поддержки авторизации в Ranger, упрощено управление SSL-шифрованием для сервисов кластера. Обновлена и подсистема безопасности Arenadata Platform Security: в обновленной версии введена поддержка доменного контроллера Samba и режим высокой доступности для Ranger KMS.

Доступность в облаке MWS

МТС, цифровая экосистема, 26 июля 2024 года сообщила о заключении стратегического партнерства между MTS Web Services (MWS), входит в группу МТС, и Arenadata. В рамках договора MWS запустил пять сервисов на программных продуктах от Arenadata, в том числе и Arenadata Hadoop (ADH). Подробнее здесь.

Добавление сервиса Apache Kyuubi

Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) сервис Apache Kyuubi — распределённый многопользовательский SQL-шлюз для корпоративных хранилищ и озёр данных. Он расширяет возможности быстрой интерактивной аналитики в Arenadata Hadoop и обеспечивает простой и безопасный доступ к любому ресурсу кластера через единую точку входа. Об этом компания сообщила 25 июля 2024 года.

Kyuubi предоставляет унифицированный интерфейс для доступа к вычислительным движкам через единую систему аутентификации и авторизации. Благодаря сервису дата-сайентисты и аналитики получают возможность обрабатывать данные с помощью привычного движка, поддерживаемого продуктом. В свою очередь, администраторам баз данных предоставляется единый интерфейс для конфигурации, обеспечения безопасности и управления доступом к данным.

«
В контексте дистрибутива Arenadata Hadoop мы уже предоставили возможность работы Kyuubi со Spark SQL и Hive, в планах — расширить эту функциональность поддержкой Flink SQL. Кроме того, мы разработали и отдали в апстрим проекта возможность поддержки диалекта Impala для JDBC-движка, в нашем продукте она доступна, начиная с версии ADH 3.2.4.2, — сказал Александр Анисимов, технический руководитель продукта Arenadata Hadoop.
»

Данный сервис предоставляет SQL-интерфейс и поддержку JDBC/ODBC, что делает его удобным для пакетной обработки ETL/ELT, аналитики, ad-hoc-задач и интеграции с BI-системами. Kyuubi также предоставляет эффективное управление вычислительными ресурсами движка Spark SQL, давая возможность как объединять вычислительные ресурсы для группы пользователей в одной сессии, так и гарантировать изоляцию необходимых ресурсов для каждого пользователя или подключения.

Функции обеспечения безопасности и высокой доступности — фундаментальные требования для корпоративного использования. В рамках этой тенденции в Kyuubi внедрена поддержка LDAP-аутентификации для клиентов, а также добавлен плагин Kyuubi AuthZ для Spark 3, обеспечивающий управление доступом к данным, — функциональность доступна, начиная с версии ADH 3.2.4.3. В контексте улучшения высокой доступности команда Arenadata разработала и отдала в апстрим проекта возможность использовать PostgreSQL в качестве хранилища метаданных (metastore).

Помимо базового варианта использования, Kyuubi позволяет расширить возможности сервера и вычислительных движков. Для сервера доступно внедрение пользовательских функций в модули, отвечающие за аутентификацию, конфигурацию и др. Для вычислительных движков можно добавить новые возможности путём разработки собственных плагинов и применения сторонних. «Kyuubi отвечает требованиям наших заказчиков к проектам уровня enterprise. Сервис расширяет возможности Arenadata Hadoop в части интерактивного доступа, изоляции вычислительных ресурсов, поддержки нескольких рабочих нагрузок и безопасности данных», — отметила Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.

Получение сертификата ФСТЭК на соответствие требованиям 4-го уровня доверия и технических условий

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop — получил сертификат соответствия ФСТЭК РФ №4821 от 13 июня 2024 года. Документ удостоверяет, что продукт сертифицирован по требованиям 4-го уровня доверия и технических условий.

4-й уровень доверия ФСТЭК является одним из самых высоких уровней доверия к средствам технической защиты конфиденциальной информации. Он подтверждает, что Arenadata Hadoop подходит для использования: · в значимых объектах критической информационной инфраструктуры 1-й категории; · государственных информационных системах 1-го класса защищённости; · автоматизированных системах управления производственными и технологическими процессами 1-го класса защищённости; · информационных системах персональных данных при необходимости обеспечения 1-го уровня защищённости персональных данных; · информационных системах общего пользования 2-го класса, обрабатывающих информацию ограниченного доступа, в том числе персональные данные, служебную, коммерческую и иные виды конфиденциальной информации.

«
Это важное событие и для нас, как для разработчика Arenadata Hadoop, и для наших клиентов и потенциальных заказчиков, специфика которых предписывает использовать программные продукты лишь со столь высоким уровнем защищённости, — отметил Александр Ермаков, технический директор Arenadata.
»

Сертификат ФСТЭК подтверждает, что Arenadata Hadoop является программным обеспечением со встроенными средствами защиты от несанкционированного доступа к информации, не содержащей сведений, составляющих государственную тайну, реализующим функции идентификации и аутентификации, управления доступом и регистрации событий безопасности. Дистрибутив соответствует требованиям по безопасности информации, установленным в документе «Требования по безопасности информации, устанавливающие уровни доверия к средствам технической защиты информации и средствам обеспечения безопасности информационных технологий».

На основе технических заключений Arenadata Hadoop внесён в государственный реестр системы сертификации средств защиты информации по требованиям безопасности информации от 13 июня 2024 года. Полученный сертификат ФСТЭК действителен до 13 июня 2029 года.

Совместимость Apache Impala с Arenadata Catalog

16 мая 2024 года компания Arenadata сообщила о том, что «ДатаКаталог» (входит в Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH). Подробнее здесь.

Добавление сервиса Smart Storage Manager

Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) сервис Smart Storage Manager (SSM) — инструмент для оптимизации хранения и управления данными. Сервис расширяет возможности распределённой файловой системы HDFS и позволяет выбрать наиболее эффективный способ работы с данными, снижая накладные расходы на их хранение и повышая производительность запросов. Об этом копания сообщила 2 апреля 2024 года.

В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает горячие данные в кеш, тёплые — на носители, оптимальные по производительности (SSD), холодные — в архив на носители, оптимизированные по объёму хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения горячих данных, а также оптимизировать использование оборудования.

Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).

«
Стандартный инструмент для репликации данных между разными Hadoop-кластерами — команда distcp (Distributed Copy) — подходит для пакетной репликации большого объёма данных и неприменима в ряде других сценариев. С появлением SSM мы расширили возможности Arenadata Hadoop новым функционалом Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник, — отметил Александр Анисимов, технический руководитель продукта Arenadata Hadoop.
»

Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding — технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.

«
Ввиду роста объёмов неструктурированных данных и их неравноценности с точки зрения частоты запросов, нет смысла оптимизировать весь массив. SSM позволяет собирать и анализировать исторические показатели, на их основе выявлять и прогнозировать шаблоны доступа к данным, чтобы автоматически корректировать варианты хранения, оптимизируя расходы и повышая производительность, — отметила Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.
»

Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами — их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нём доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.

Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.

Доступность из облака «Крок»

Крок Облачные сервисы и Arenadata заключили соглашение о партнёрстве, по которому продукты Arenadata стали частью услуг, предоставляемых заказчикам на базе Облака КРОК. В частности, клиентам облачного провайдера теперь доступно решение Arenadata Hadoop (ADH)). Об этом Крок сообщил 17 января 2024 года. Подробнее здесь.

2023

Arenadata Hadoop 3.1.2.1.b1 с сервисом Apache Impala

Arenadata 25 октября 2023 года представила релиз Arenadata Hadoop (ADH) 3.1.2.1.b1, в который вошёл сервис Apache Impala — распределённая система исполнения SQL-запросов в экосистеме Hadoop. Сервис предназначен для интерактивной обработки данных на сверхбольших объёмах данных, он открывает доступ к новым сценариям использования, требующим высокой скорости исполнения запросов.

Можно выделить следующие преимущества нового функционала ADH для пользователей:

  • Скорость обработки запросов в озере данных. Impala обеспечивает низкую задержку и высокий уровень параллелизма в экосистеме Hadoop. Это позволит эффективнее решать задачи self-service аналитики и ad-hoc запросов.
  • Простота внедрения в текущую инфраструктуру. Заказчикам, у которых уже был установлен Hive, не придётся переносить данные и таблицы, так как Impala использует те же метаданные, форматы файлов и драйверы подключения.
  • Масштабирование, независимое от основного кластера Hadoop. Arenadata Hadoop предоставляет возможность развёртывания Impala вне основного кластера. Это позволяет исключить конкуренцию за аппаратные ресурсы и отдельно масштабировать аналитическую нагрузку даже в существующих инсталляциях ADH.
  • Оптимизация использования оборудования. Сервис поможет сократить стоимость обработки данных за счёт оптимального использования аппаратного обеспечения. Помимо этого, больше не требуется тратить ресурсы на адаптацию SQL-кода и дополнительное обучение аналитиков при миграции с Cloudera Data Platform.
  • Оптимизация ландшафта заказчика. Отдельные сценарии ad-hoc и self-service аналитики, требующие массивно-параллельной обработки, теперь возможно реализовывать локально, не нагружая ими основное хранилище данных.

«
Включение еще одного сервиса в Arenadata Hadoop существенно повысило производительность продукта для ряда бизнес-сценариев. Он в значительной мере отвечает требованиям заказчиков в части скорости исполнения запросов, что позволяет внедрять новые сценарии использования. В грядущих релизах ADH мы планируем расширять функциональность данного сервиса: его безопасность, доступность и интеграцию с другими компонентами, например, такими, как Arenadata Platform Security (ADPS), — прокомментировал Александр Ермаков, технический директор Arenadata.
»

Обновленный релиз Arenadata Hadoop включил и другие изменения: представлено автоматическое управление высокой доступностью сервисов Hadoop, добавлен ADB Spark Connector с поддержкой Spark3, улучшен функционал керберизации кластера, позволяющий производить более детальную настройку.

Доступность в облаке Cloud.ru

Провайдер облачных и AI-технологий Cloud.ru стал стратегическим партнёром российского вендора ПО для хранения и обработки данных Arenadata. Теперь продукты Arenadata можно использовать в облаке Cloud.ru. Об этом Arenadata сообщила 29 августа 2023 года.

Как уточнили TAdviser представители Arenadata, в облаке Cloud.ru доступны следующие продукты компании: ADB - Arenadata DB, ADH (Arenadata Hadoop), ADQM (Arenadata QuickMarts) и ADS (Arenadata Streaming). Подробнее здесь.

Доступность в beeline cloud

Экосистема продуктов Arenadata теперь доступна клиентам облачного провайдера beeline cloud. Об этом компания Arenadata сообщила 3 августа 2023 года. Как уточнили TAdviser представители Arenadata, в числе продуктов, доступных через beeline cloud: Arenadata DB, Arenadata Hadoop, Arenadata Streaming, Arenadata Postgres, Arenadata QuickMarts и Arenadata Cluster Manager. Подробнее здесь.

Совместимость с платформой Rubbles MLOps Suite

ИТ-компании Rubbles и Arenadata обеспечили совместимость своих программных продуктов. Теперь платформа Rubbles MLOps Suite и решения для хранения и обработки данных Arenadata могут работать бесшовно в едином программном комплексе. Об этом компания Arenadata сообщила 19 июля 2023 года.

Единый программный комплекс объединяет MLOps-решения Rubbles и продукты Arenadata, в том числе и Arenadata Hadoop. Подробнее здесь.

Arenadata Hadoop 2.1.7_b1 с компонентами Hbase, Flink и Zookeeper

24 января 2023 года компания Arenadata сообщила о выпуске версии дистрибутива на базе Apache Hadoop, адаптированного для корпоративного использования, — Arenadata Hadoop (ADH) 2.1.7_b1. Релиз включил обновление версий компонент Hbase, Flink и Zookeeper. Также в него добавлен сервис Airflow2 и компонент Livy версии 0.7.1 c поддержкой работы со Spark версии 3.3.0 на Scala 2.13.

Arenadata Hadoop 2.1.7_b1 включил следующие улучшения и обновленный функционал:

  • возможность установить версию сервиса Flink 1.15.1, а также «по кнопке» обновиться с предыдущей версии. Пользователи смогут воспользоваться функционалом данной версии и исправить проблемы предыдущей;
  • возможность установить данную версию сервиса Hbase 2.0.4 и «по кнопке» обновиться с предыдущей версии, исправив проблемы старой версии;
  • возможность установить данную версию сервиса Zookeeper 3.5.10, а также «по кнопке» обновиться с предыдущей версии. Данная версия позволит исправить проблемы предыдущей;
  • возможность установить новый компонент сервиса Spark3 — Livy 0.7.1 c поддержкой Spark 3.3.0 на Scala 2.13 в качестве отдельного компонента параллельно Livy для Spark версии 2.3.2. В компонент добавлена возможность поддержки Spark 3.3.0 и Scala 2.13;
  • обновленный сервис Airflow версии 2.3.3. Он устанавливается параллельно Airflow версии 1.10.11. Это даёт возможность перенести настройки и задания с предыдущей версии;
  • поддержка кастомизации krb5.conf и ldap.conf через интерфейс Arenadata Cluster Manager (ADCM). Это даёт возможность пользователю самостоятельно средствами ADCM изменить содержимое конфигурационных файлов krb5.conf и ldap.conf. Этот функционал позволит настраивать более сложные и тонкие конфигурации керберизации и авторизации в зависимости от сложности инфраструктуры;
  • добавлена возможность принудительно отключить политики доступа HDFS ACL, если включен плагин Ranger. Это позволит использовать единую «точку правды» для организации доступа пользователей.

«
Arenadata стремится предоставить заказчикам возможность получать последние версии компонентов Hadoop. Важно, чтобы у пользователей была возможность обновить их автоматически "по кнопке". Специалисты, работая над обновленными версиями Arenadata Hadoop, заботятся о том, чтобы продукт был безопасен, а его компоненты совместимы друг с другом и стабильно работали в рамках всей платформы,
рассказал Александр Большаков, директор по продуктам Arenadata.
»

2022

Тестирование на совместимость с серверами и дисковыми массивами Gagar>n

Производитель серверного оборудования GAGAR>N совместно с российским разработчиком платформы для работы с данными Arenadata и ИТ-компанией "Т1 Консалтинг" провели тестирование оборудования для работы с Big Data и подтвердили эффективность его использования для создания отечественных комплексов хранения и обработки больших данных. Об этом 26 июля 2022 года сообщили представители "Т1 Консалтинг".

В связи с возросшей потребностью заказчиков в построении ИТ-инфраструктуры на базе российских программно-аппаратных комплексов "T1 Консалтинг" выступил организатором разработки ПАК с использованием ПО Arenadata DB и Arenadata Hadoop на серверной платформе х86 и дисковых массивах GAGAR>N. Перед формированием готового предложения специалисты провели тестирование с целью проверки совместимости вычислительного оборудования с программными решениями. Подробнее здесь.

Kerberos-авторизация для предотвращения несанкционированного доступа

24 февраля 2022 года компания Arenadata сообщила, что предоставила пользователям трёх своих продуктов - Arenadata Hadoop (ADH), Arenadata Streaming (ADS) и Arenadata Platform Security (ADPS) - возможность предотвращать несанкционированный доступ к сервисам и данным кластеров. Теперь достаточно включить Kerberos-авторизацию для всех компонентов, которая позволит хранить авторизационные данные в Active Directory. Подробнее здесь.

2021

Доступность на платформе Mail.ru Cloud Solutions

Mail.ru Cloud Solutions 21 июля 2021 года сообщила о запуске Hadoop 3.0 как сервис на базе решения Arenadata. Подробнее здесь.

Arenadata Hadoop 2.1 с модулем Platform Security

18 января 2021 года компания Arenadata сообщила о завершении финального тестирования обновленного компонента для обеспечения централизованного управления политиками безопасности кластера — модуля Arenadata Platform Security.

Arenadata Platform Security

По информации компании, сервис позволит бизнесу обеспечить комплексный подход к организации безопасности в следующих ключевых областях: безопасность периметра, аутентификация и авторизация пользователей, аудит действий пользователя, защита данных. Даст возможность создать единую систему обеспечения безопасности данных одновременно для нескольких инсталляций, кластеров и гетерогенных инфраструктур.

Первый релиз Platform Security (1.0.) поставляется как бесплатное дополнение к Enterprise-редакции последних версий дистрибутива Arenadata Hadoop 2.1 (на базе Hadoop 3.x). Начиная с текущего релиза все компоненты необходимые для организации и настройки безопасности будут поставляться в рамках отдельного модуля ADPS.

Arenadata Hadoop — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования в рамках единой корпоративной платформы Arenadata EDP. Является дистрибутивом Hadoop с открытым кодом, начиная с ADH 2.1.2.3 доступен в Enterprise-редакции.

В корпоративную версию Arenadata Hadoop 2.1 включены все обновленные релизы компонентов Apache Ranger — компонента для мониторинга и управления комплексной безопасностью данных на платформе Arenadata Hadoop. Этот сервис отвечает за администрирование задач, связанных с безопасностью, мониторинг запросов доступа к системе и различные методы авторизации для всех компонентов и инструментов Hadoop.

В функционале Arenadata Hadoop 2.1 с модулем Platform Security появится ряд обновлений:

  • Обновление Ranger для поддержки Apache Hadoop 3.1.
  • Обновление Ranger для поддержки Hive 3.0.
  • Обновление Ranger для поддержки Hbase 2.0.
  • Поддержка Ranger для Apache Kafka 2.0.0.
  • Поддержка плагина для включения, мониторинга и управления Elasticsearch.
  • Зоны безопасности в Apache Ranger.
  • Поддержка доверенного прокси.
  • Обновление Ranger для поддержки Ozone.
  • Интеграция KeySecure HSM.
  • Поддержка пользовательских условий на уровне политики.
  • Улучшения для поддержки ролей в политиках Ranger.
  • Улучшения плагина Hive для поддержки команд SQL.

«
Первый релиз Arenadata Platform Security позволит нашим пользователям централизованно управлять безопасностью данных при работе с множеством сервисов и кластеров Arenadata Hadoop последних версий. Данное решение позволит снизить эксплуатационные издержки и будет особенно актуально в работе с большими массивами чувствительных данных, а именно в таких отраслях, как банки, финтех, телеком, медицина, страхование и ритейл.

рассказал Александр Ермаков, технический директор Arenadata
»

Функциональными возможностями любого продукта на базе платформы Arenadata EDP являются нативная интеграция с другими решениями Arenadata и полностью автоматизированный процесс инсталляции других продуктов. В случае Platform Security у владельцев появится отдельный бандл, в поставку которого входят все решения для безопасности. С помощью стандартного визуального интерфейса в оркестраторе Arenadata Cluster Manager клиент разворачивает его в своей системе. Полностью автоматизированы любые процессы, связанные с инсталляцией, конфигурацией и другими действиями, необходимыми для интегрирования продуктов в корпоративную платформу.

В ближайших планах развития продукта — подключение других компонентов платформы Arenadata EDP, в частности, реализация поддержки Apache Ranger для кластеров Arenadata Streaming. В перспективе Arenadata Platform Security станет отдельной зонтичной надстройкой для управления безопасностью всех компонентов корпоративной платформы сбора и хранения данных Arenadata Enterprise Data Platform (EDP).

2020

Arenadata Hadoop 2.1.2.4

26 октября 2020 года компания Arenadata сообщила о том, что корпоративный дистрибутив Arenadata Hadoop (ADH) теперь доступен в разных версиях — бесплатной для свободного скачивания и корпоративной версии c функционалом высокой доступности ключевого компонента системы Namenode High Availability для повышения отказоустойчивости HDFS.

Arenadata Hadoop — это полноценный open-source дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования и предназначенный для хранения и обработки как структурированных, так и неструктурированных данных.

В октябре вышел релиз ADH 2.1.2.4:

  • разделение версий — для свободного скачивания и платного продвинутого корпоративного варианта (с рядом собственных разработок и дополнительных преимуществ);
  • добавлен функционал высокой доступности ключевого компонента системы Namenode High Availability. Это повысит отказоустойчивость ключевого компонента решения — HDFS. Доступно в версии релиза Enterprise.

Начиная с версии ADH 2.1.2.3 свежий дистрибутив Arenadata Hadoop доступен в 2 версиях — Community и Enterprise: Community — полностью функциональная версия, которую можно свободно использовать как для разработки и тестов, так и для промышленной эксплуатации. Community-версия Arenadata Hadoop открыта для свободного скачивания. Enterprise — содержит продвинутую функциональность высокой доступности и, в скором будущем, информационной безопасности.

Ранее в случае падения мастер-сервера с NameNode требовалось вручную восстановить файловую систему с SecondaryNamenode, чтобы вернуть доступ к кластеру и сервисам. Теперь все действия по фейловеру производятся автоматически, а обслуживание не прерывается. Во время, пока производятся эти действия, кластер и сервисы были недоступны.

«
HighAvaliability для HDFS Namenode — важное требование для многих наших заказчиков. Наличие высокой доступности ключевого компонента системы позволит им перейти на более современную версию Hadoop 3.x, которая снижает накладные расходы на хранилище на 50–200% и предоставляет хранение с использованием кодов избыточности для обеспечения отказоустойчивости. Именно на версии Hadoop 3.x — сконцентрировано внимание сообщества, и все большие разработки от глобальных IT-вендоров идут в этой версии экосистемы. При этом сам продукт Arenadata Hadoop стал удобнее в обслуживании — для восстановления работоспособности в случае сбоев срочное вмешательство администратора больше не требуется,

— комментирует продакт менеджер Arenadata Hadoop Алексей Белозерский
»

До конца 2020 года планируется внедрение компонента Apache Ranger, который будет отвечать за импорт пользователей и групп из внешних источников и авторизацию во всех компонентах дистрибутива Hadoop. Это позволит создать единую точку авторизации пользователей, контролировать доступ к данным и проводить аудит доступа.

Где скачать

Arenadata Hadoop (ADH) — это полностью open-source дистрибутив Hadoop. Вы можете самостоятельно скачать Community-версию Arenadata Hadoop ADH 2.1.2.4, в том числе изучить исходные коды продукта.

Arenadata Hadoop 2.1.2

25 февраля 2020 года Arenadata представила минорную версию Arenadata Hadoop 2.1.2 (ADH 2.1.2), включающую два дополнительных сервиса Airflow и Solr, а также поддержку YARN on GPU с целью использования видеокарт для вычислений.

Благодаря этому пользователи Arenadata Hadoop получат возможность запускать задачи внутри Hadoop с использованием GPU-машин. Классический пример — это Spark. Внутри него можно писать код, который будет использовать CUDA ядра и быструю память GPU-машин.

«
Версия Arenadata Hadoop 2.1.2 позволит ускорить работу Spark с использованием аппаратного обеспечения видеокарт. При этом вся функциональность нашего продукта сохранится. Также мы внесли в обновленную версию несколько исправлений и изменений функционирования сервисов, добавили более глубокие чеки сервисов проверки работоспособности, их интеграционные проверки взаимодействия между собой,
рассказал Александр Ермаков, технический директор Arenadata
»

2019: Дистрибутив Arenadata Hadoop 2.1 на базе Hadoop 3

Компания Arenadata презентовала рынку в октябре 2019 года обновление дистрибутива распределённой платформы хранения Arenadata Hadoop (ADH) - Arenadata Hadoop 2.1, включающую такие компоненты, как Hadoop 3, Spark 2, Hive 3, YARN 3, HBase 2 и Phoenix 5.

Arenadata Hadoop 2.1 наполнена рядом новых функциональностей. Среди них:

  • новая система управления, развёртывания и мониторинга Arenadata Cluster Manager, позволяющая устанавливать и управлять сервисами Hadoop как on-premise, так и в облаке;
  • алгоритм восстановления данных Erasure Coding, способный до 40% снизить over-утилизацию дисковой системы в сравнении с классической репликацией HDFS;
  • СУБД Hive 3, позволяющая создавать реляционные таблицы, записывать в них данные, использовать транзакции и материализации представлений;
  • новая версия менеджера ресурсов YARN 3, позволяющая в данной версии контролировать распределение ресурсов нескольких кластеров между конкурирующими приложениями (YARN Federation);
  • использование статичного диапазона портов для сервисов Hadoop;
  • реляционная база данных Phoenix, позволяющая решить проблемы с потоковой загрузкой данных и их чтением.



2018

Доступность в Казахстане

14 ноября 2018 года компания Arenadata, российский разработчик многоцелевой платформы данных, сообщила о доступности на рынке Казахстана российского дистрибутива Arenadata Hadoop (ADH), а также аналитической массивно-параллельной СУБД Arenadata DB.

«
Техническую поддержку решений Arenadata будут обеспечивать специалисты DIS Group, — уточнил Канат Абиров, генеральный директор DIS Group KZ. — В России наши специалисты уже успели приобрести опыт работы с продуктами Arenadata. При этом мы работаем на рынке Казахстана в течение многих лет и хорошо знаем специфику региона.
»

Приобрести Arenadata Hadoop и Arenadata BD казахские компании смогут через офис DIS Group в Алматы — DIS Group KZ. Также стали доступны промышленные модули для расширения функционала платформы Arenadata в области интеграции данных, обеспечения их качества, каталогизации и самостоятельной работы бизнес-пользователе. Модули — на базе инструментов компании Informatica.

Дистрибутив Arenadata Hadoop 1.5.2

Во втором квартале 2018 года вышел релиз версии 1.5.2 Arenadata Hadoop.

Данная версия дистрибутив включает следующий состав компонентов:

В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:

  • вся поддержка и непосредственно экспертиза доступна в России и на русском языке;
  • есть пакет утилит для полной оффлайн-установки (без доступа к сети интернет);
  • вся сборка выполнена на базе открытых проектов Apache, нет проприетарных компонентов;
  • российское программное обеспечение;
  • поддержка доступна как удаленно, так и on-site;
  • есть набор доступных типовых пакетных сервисов по планированию, установке и аудиту системы.

Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на «голом железе», так и на виртуальных машинахоблаке). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.

Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop.

В состав дистрибутива Arenadata Hadoop входят последние актуальные версии всех наиболее популярных инструментов, некоторые из которых были существенно доработаны, что гарантирует минимальное количество ошибок ПО, полный существующий функционал каждого инструмента и корректную интеграцию инструментов между собой. Кроме того, в состав Arenadata Hadoop включены инструменты для реализации корпоративных моделей безопасности (Apache Knox, Apache Ranger), управления данными и метаданными кластера (Apache Atlas), реализации ETL\ELT-потоков данных (Apache Flink, Apache NiFi).

Состав и версии компонентов ADH 1.5.2:

  • Apache Ambari 2.6.1
  • Apache HDFS 2.8.1
  • Apache YARN 2.8.1
  • Apache MapReduce 2.8.1
  • Apache Zookeeper 3.4.10
  • Apache Tez 0.9.0
  • Apache Hive 2.3.0
  • Apache HBase 1.3.1
  • Apache Phoenix 4.11.0
  • Apache Pig 0.17.0
  • Apache Sqoop 1.4.6
  • Apache Flume 1.8.0
  • Apache Oozie 4.3.0
  • Apache Atlas 0.8.1
  • Apache NiFi 1.3.0
  • Apache Apex 3.6.0
  • Apache Flink 1.3.2
  • Apache Kafka 1.0.0
  • Apache Knox 0.12.0
  • Apache Mahout 0.13.0
  • Apache Ranger 0.7.1
  • Apache Ranger KMS 0.7.1
  • Apache Solr 6.6.0
  • Apache Spark 2.2.0
  • Apache Zeppelin 0.7.3
  • Apache Giraph 1.1.0
  • Apache Slider 0.92.0

Дополнительные компоненты, включенные в состав дистрибутива:

  • Hue 3.11.0
  • Bigtop-groovy 2.4.10
  • Bigtop-jsvc 1.10.15
  • Bigtop-tomcat 6.0.45
  • Bigtop-utils 1.3.0
  • extjs 2.2
  • fping 3.10
  • grafana 4.3.1
  • libconfuse 2.7
  • lzo 2.06
  • lzo-devel 2.06
  • lzo-minilzo 2.06
  • mysql-connector-java 5.1.25
  • net-tools 2.0
  • numactl-libs 2.0.9
  • pdsh 2.3.1
  • perl-Crypt-DES 2.05
  • perl-Net-SNMP 6.0.1
  • rrdtool 1.4.8
  • rrdtool-devel 1.4.8
  • snappy 1.1.0
  • snappy-devel 1.1.0

2016: Сертификация по стандартам Open Data Platform Initiative

В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation.



ПРОЕКТЫ (10) ИНТЕГРАТОРЫ (3) СМ. ТАКЖЕ (40)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  SAP CIS (САП СНГ) (38)
  Softline (Софтлайн) (35)
  РДТЕХ (33)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
  ФОРС - Центр разработки (25)
  Другие (746)

  Сапиенс солюшнс (Sapiens solutions) (7)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
  Navicon (Навикон) (3)
  Инфосистемы Джет (2)
  Крок (2)
  Другие (35)

  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (1)
  Айтеко (Ай-Теко, iTeco) (1)
  Астерос (1)
  Атомдата (Atomdata) (1)
  Группа Борлас (Borlas) (1)
  Другие (20)

  Arenadata (Аренадата Софтвер) (5)
  Тантор Лабс (Tantor Labs) (3)
  ФОРС - Центр разработки (2)
  Астра Группа компаний (1)
  Гринатом (Greenatom) (1)
  Другие (18)

  Arenadata (Аренадата Софтвер) (5)
  TData (ТДата) (4)
  Диасофт (Diasoft) (2)
  Сбербанк-Технологии (СберТех) (2)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  Другие (18)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 178)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 130)
  Постгрес профессиональный (ППГ, Postgres Professional) (6, 41)
  Другие (266, 253)

  Microsoft (3, 11)
  SAP SE (3, 11)
  PostgreSQL Global Development Group (3, 10)
  Oracle (2, 4)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 3)
  Другие (10, 13)

  PostgreSQL Global Development Group (4, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
  Arenadata (Аренадата Софтвер) (3, 2)
  Oracle (2, 2)
  Другие (9, 9)

  PostgreSQL Global Development Group (3, 13)
  Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
  Arenadata (Аренадата Софтвер) (3, 5)
  Apache Software Foundation (ASF) (3, 4)
  Тантор Лабс (Tantor Labs) (2, 3)
  Другие (8, 10)

  PostgreSQL Global Development Group (4, 12)
  Arenadata (Аренадата Софтвер) (3, 7)
  VMware (2, 7)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  Диасофт (Diasoft) (1, 3)
  Другие (7, 8)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle Database - 106
  Microsoft SQL Server - 104
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 103
  PostgreSQL СУБД - 81
  SAP HANA (High Performance Analytic Appliance) - 72
  Другие 383

  Microsoft SQL Server - 9
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
  PostgreSQL СУБД - 7
  Oracle Database - 3
  SAP HANA (High Performance Analytic Appliance) - 3
  Другие 21

  Postgres Pro СУБД - 5
  ADB - Arenadata DB - 2
  PostgreSQL СУБД - 2
  Tarantool Платформа in‑memory вычислений - 2
  Oracle Database - 2
  Другие 13

  Postgres Pro СУБД - 6
  PostgreSQL СУБД - 4
  Tantor СУБД - 3
  ADB - Arenadata DB - 3
  ClickHouse - система управления базами данных (СУБД) - 2
  Другие 10

  ADB - Arenadata DB - 6
  PostgreSQL СУБД - 5
  Postgres Pro СУБД - 4
  Diasoft Digital Q.Database - 3
  ADH - Arenadata Hadoop - 2
  Другие 10